阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案
商业周刊中文版授权转载
编译:梁悦
摘自:商业周刊中文版(微信号:businessweek)
原文链接:Shane Moon的Slideshare主页
大数据文摘后台,回复“人工智能”,一并下载本文全版PPT(54页)及其他
最绚烂的火花,永远产生于森然秩序被打破,天才超然于规律之外的那一瞬间
卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理
在刚刚结束的“AlphaGo”与韩国围棋高手李世石之间的人机大战第五局中,李世石执黑负,无缘两连胜。至此,人机大战五番棋全部结束,李世石1-4输掉对决,无缘100万美元赢棋奖金。
为了让大家从另外一面了解AlphaGo,Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon(个人主页:http://shanemoon.com/)做了一次演讲,他就读于卡内基梅隆大学著名的语言技术研究所,纯干货讲稿PPT奉上。
AlphaGo是如何工作的
演讲人:Shane Moon
2016年3月9日-15日,AlphaGo与世界冠军李世乭九段展开对弈
电脑围棋人工智能
我们可以把棋盘想象成一个矩阵
电脑围棋人工智能:一个可行的概念?
假设它模拟所有可能的棋盘落子位置呢?
进行这样的模拟直到游戏结束,然后报告输赢结果
这是不可能的,据说所有可能的棋盘排布种类总数超过了宇宙中原子的数量
关键在于:缩减搜索空间
缩减搜索空间的第二种方法:提前评估落子位置(纵向缩减)
缩减搜索空间的两种方式:减少可选择的着法(横向),提前评估落子位置(纵向)
减少可选择的着法
得到P(下一次落子|现在的位置)
将预测模型模拟为矩阵进行运算
这个深度学习过程要经过13层“CNN”
CNN即卷积神经网络,是一种强大的图像识别任务处理模型,它将输入的图像通过卷积层抽象化
围棋:胜利的关键在于抽象能力
卷积神经网络:抽象是其特长
模仿专业高手着法的模型
更新模型,不断进行新旧模型之间的对弈,最后一个版本的模型和初始版本对弈已经有了八成赢面
盘面形势评估
缩减搜索空间:横向上减少可选择的着法(策略网络),纵向上进行盘面形势评估(价值网络)
据估测,AlphaGo的水准在业余五段左右
AlphaGo每天都学习数以百万计的对局
如果AlphaGo学习了李世乭的策略会怎样?谷歌表示他们不会将李世乭的比赛数据用于AlphaGo的训练数据,即使它真的学习了,仅仅与李世乭对弈几盘就修改在海量数据下训练过的模型也是很难的
往期精彩文章推荐,点击图片可阅读
微软Hololens,正在颠覆医学领域
[译]天龙八步:8步让你变成数据科学家